Главная arrow книги arrow Копия Глава 17. Принятие сложных решений arrow Алгоритм итерации по значениям
Алгоритм итерации по значениям

Мы можем применить алгоритм итерации по значениям к миру 4x3 (см. рис. 17.1, а). Начиная с исходных значений, равных нулю, полезности изменяются, как показано на рис. 17.4, а. Обратите внимание на то, как состояния, находящиеся на различных расстояниях от квадрата (4,3), накапливают отрицательное вознаграждение до тех пор, пока в какой-то момент не обнаруживается путь к состоянию (4,3), после чего значения полезности начинают возрастать. Алгоритм итерации по значениям может рассматриваться как способ распространения информации через пространство состояний с помощью локальных обновлений.

Рис. 17.4. Пример применения алгоритма итерации по значениям: график, показывающий изменение полезностей выбранных состояний в процессе итерации по значениям (а); количество итераций по значениям k, необходимое для того, чтобы можно было гарантировать, что ошибка не превышает для различных значений с, как функция от коэффициента обесценивания γ (б)